import pandas as pd

# 去除重复值

data = pd.DataFrame([['张三', '男'], ['张三', '男'], ['李四', '男'], ['李四', '女']],
                    columns=['姓名', '性别'])
print(data)

# drop_duplicates方法
data1 = data.drop_duplicates()  # 默认是根据所有的列数据进行去重复
print(data1)

# 根据某一列去重，用subset参数
# keep参数指定去重后保留的是第一行数据还是最后一行数据
data2 = data.drop_duplicates(subset=['姓名'], keep='last')
print(data2)

# inplace参数。设置为True时，会对原数据生效，不建议做
# data.drop_duplicates(subset=['姓名'],inplace=True)
